モデルベース強化学習(Model-Based RL)
環境のモデルを利用するため、モデルベースと呼ばれる
環境のモデル:異なる状態がどのように互いに接続しているか?
よくチェスの例が挙げられる
プレイヤーはコマを実際に動かす前に、もしこのコマを動かしたらどうなるのか?という展開を頭の中でシミュレートする
この時、
行動と状態の変化に関するモデル
例えば、コマを動かした時の盤面の変化
ある状態における報酬のモデル
盤面が変化した時にどれくらい有利か?
もしくは単純に勝ち/負け
を利用していると考えられる